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Зачем? 


Зачем мы это делаем 


Профит для бизнеса 


e Эффекты маркетинговых компаний 
е Контроль за бизнес-метриками 


Профит дла инженеров 


ө Отслеживание технических метрик 
ө Помощь при исследованиях 


О чем пойдет речь? 


Погружаемся в теорию 

Определяем тулсет 

Делаем подготовку 

Готовим модели предсказаний 

Строим доверительный интервал 
Определяем лучшую модель 

Сохраняем результаты 

Учимся работать с множеством аномалий 


Подводим итоги 
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Теория: 


Dimensions 


Dimension (срез) — набор характеристик, определяющих природу 
данных графика 


Теория: 


Dimensions 


Примеры дименшенов: 


Страна 
Устройство пользователя 
Оператор 


Теориа: 


Dimensions 


Проблема комбинаторного взрыва 
е 100 стран 
е 50 разных устройств 


е 200 операторов 


Всего 1.000.000 графиков, и зто не предел 


Теория: 


Аномалия 


Аномалия — это отклонение от нормы, от общей закономерности 


Теориа: 


Аномалия 
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Теория: 


Предсказание 


Предсказание (forecast, prediction) — это по определению сообщение о некотором событии, 
которое непременно произойдет в будущем 


One step ahead forecast — предсказание на один шаг вперед 


Теория: 


Предсказание 
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Теория: 


Доверительный интервал 


Доверительным называют интервал, который покрывает неизвестный параметр с заданной 
надежностью 


Доверительный интервал — на сколько можно ошибиться в предсказании 


Теория: 


Доверительный интервал 
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Тулинг 


Тулинг: 


Базы данных 


Еха5о! 
Мегіїса 
Snowflake 
Oracle 
BigQuery 


Clickhouse 


Подготовка 


Схема хранениа: 


Получение данных 


CREATE TABLE data source ( й Есть ID 
id Int64, - Список дименшенов 
dimension L String - Описание измерения 


dimension 2 String, 
metric String, - Временная отметка 
ts DateTime, - Значение 

value 1п:64 

) ENGINE-MergeTree PARTITION BY (ts) 

ORDER BY (ts, id) Таблица c оригинальными 


данными 


Схема хранениа: 


Подготовка: метаданные 


CREATE TABLE dimensions ( Выносим все метаданные 
id 1664, 
dimension 1 String, 
dimension 2 String, Получаем временные метки первого и 


metric String, 
first ts AggregateFunction(min, DateTime), 
last ts AggregateFunction(max, DateTime) 


) ENGINE-AggregatingMergeTree () Заполняем каждый раз при анализе нового 
PARTITION BY 105 32 ORDER ВУ id; 
5 периода 


последнего появления данных 


insert into dimensions 
select id, dimension 1, dimension 2, metric, ts, ts 
from data source; 


Схема хранениа: 


Подготовка: значения графиков 


CREATE TABLE values and predictions ( Из метаданных только ID 
іа 1п664, 
ts DateTime, 
value Float64, Отдельные ПОЛЯ ДЛЯ предсказаний И ИХ 


prediction 1 Float64, 
threshold 1 Float64, 
prediction 2 Float64, 


доверительных интервалов 


threshold 2 Float64, Возможность быстро проверить модели 
prediction М Кісаєб4, - 6 

ғазо № Float64, предсказаний, используя битовые маски B 
flags UInt64 fields 


) ENGINE-SummingMergeTree([id, ts]) 
PARTITION BY (ts) ORDER BY (ts, id) 


insert into values and predictions (id, ts, value, flags) 
select id, ts, value, 1 from data source where ts = '2021-01-01 00:00:00" 


Схема хранениа: 


Подготовка: предсказаниа 


insert into values and predictions (id, ts, prediction 5МОМ5, flags) 
select 14, "2021-01-01 00:00:00", prediction, bitShiftLeft(1, 5МОМ5) 
FROM ( 

$MODEL SELECT QUERY% 


) 
WHERE isFinite(prediction); 


1. МОМ — номер модели предсказаний 

2. MODEL SELECT QUERY — запрос Ha получение 
данных предсказаний. Должен возвращать іа и 
prediction 


Схема хранениа: 


Подготовка: Историа значении 


create table history 
іа 1п664, 
ts DateTime, 


( 


dimension 1 String, 
dimension 2 String, 


metric String, 


actual value Float64, 
predicted value Float64, 


threshold Floató64 
) ENGINE-MergeTree() 
ВХ ts, xd; 


PARTITION BY ts ОКО! 


ER 
Е, 


Результаты предсказаний 


Данные не удаляются 


Схема хранениа: 


Подготовка завершена 


1. Данные лежат и готовы для анализа 
2. Метаданные не мешают 
3. Руки чешутся предсказывать 


Модели 
предсказании 


Предсказания: 


Наивная 


Ү(ї+1)=Ү(ї) 
Предсказания для каждого горизонта соответствуют последнему наблюдаемому значению 


Данная модель не должна использоваться для предсказаний, только для сравнения с 
другими 


SELECT id, value AS prediction 
FROM values and predictions 
WHERE ts = toDateTime('dstst') - #Егеааепсу# 


Предсказания: 


Наивная 
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Предсказания: 
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Предсказания: 


Скользящее среднее 


Предсказания численно равны среднему арифметическому значений исходной функции за 
установленный период 


Отлично подходит под данные с выраженной сезональностью 


select id, if(count() = Іеподёһ (| #рег1тойз# |), AVG(value), nan) as prediction 
from values and predictions 

where time period IN (fperiodsf) 

group by id 


Предсказания: 
Скользящее среднее 


200k 


100k 


-100k 


Предсказания: 
Скользящее среднее 
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Предсказания: 
Скользящее среднее 
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Предсказания: 


Линеиная регрессия 


y = f(z,b) +=, Е(Е) = 0 


f(z, b) = бо + bizi + 525+... by, 


Линейная регрессия — регрессионная модель зависимости одной переменной y от другой или 


нескольких других переменных (факторов, регрессоров, независимых переменных) х с линейной 
функцией зависимости 


Отлично предсказывает данные, обладающие выраженным трендом 


Предсказания: 


Линеиная регрессия 


with 
# Егедиепсу# as frequency, 
toDateTime('ttime регтод#!) - frequency as upper bound, 


upper bound - #зесопаз раскф as lower bound, 
(time period - lower bound) / frequencyas idx, 
count() as num probes, 

sum(idx) as sum idx, 

max(idx) as max idx, 

max idx +1 as result idx, 

S 

S 

S 

( 


um(value) as sum values, 

um(idx * value) as sum value іах, 

um(idx * idx) as sum idx sq, 

sum values * sum idx sq - sum idx * sum value idx) / (num probes * sum idx sq - sum idx * sum 1аж a, 
(num probes * sum value idx - sum idx * sum values) / (num probes * sum idx sq - sum idx * sum 14х)5 b 

select 

id; 
if(num probes = #num ргорез#, а + b * result idx,nan) as forecast 


from values and predictions 
where time period in ('#рег1оаз#') 
group by id 


Предсказания: 
Линейная регрессия 
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Предсказания: 
Линейная регрессия 
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Предсказания: 


Какие модели еще можно 
использовать 


Экспоненциальное сглаживание 
ARIMA, SARIMA 

GARCH 

TBATS 

Prophet 

NNETAR 

LSTM 


Доверительный 
интервал 


Доверительный интервал: 


Методы определения 


Mean Square Error — средний квадрат ошибки определения какой-либо величины, 
квадратный корень из М5Е есть среднеквадратическое отклонение определяемой величины 
от её математического ожидания. 
1 т, 
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Доверительный интервал: 


Методы определения 


Выборочная дисперсия — это среднее арифметическое квадратов отклонений всех вариант 
выборки от её средней 


Доверительный интервал: 


Методы определения 


Распределение Стьюдента используется, например, в {-критерии Стьюдента для оценки 
статистической значимости разности двух выборочных средних при построении 
доверительного интервала для математического ожидания 


Позволяет получить доверительный интервал с нужной точностью при малых объемах 
выборки 


Коэффициенты (critical values) He зависят от данных и можно использовать табличные 
значения 


Доверительный интервал: 


Запрос 


INSERT INTO values and predictions 
(id, ts, threshold #НАЗН#) 
WITH 
prediction #НАЗН# AS expected, 
expected - value AS error, 
sum(pow(error, 2)) AS sum squared errors, 
varPop(expected) AS predictions variance, 
count() AS sample size, 
30 AS max sample size, 
if(sample size « max sample size, sample size, max sample size)AS number of degrees, 
[ft critical valuess][number of degrees]AS t critical value 
SELECT 
ig, 
toDateTime('#time period#'), 
t critical value * sqrt(predictions variance + sum squared errors) /sqrt (number ої degrees) AS threshold 
FROM values and predictions 
WHERE ts BETWEEN toDateTime('f&start time рег1оа#') AND computation period 
GROUP BY id 
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Доверительный интервал: 
Пример 
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Доверительный интервал: 


Пример 


200к 
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Доверительный интервал: 


Результаты 


е Умеем работать с шумньми метриками 
e Реагируем на аномалии 
e Работаем с малым объемом данных 


Лучшаа моделБ 


Лучшая модель: 


Что мы уже имеем? 


е Данные подготовлены 
е Предсказания сделаны 
е Доверительнье интервалы посчитаны 


e Для каждой точки на каждой линии мы имеем: 
о 1 реальное значение 
о N предсказаний 
о М доверительных интервалов 


Лучшая модель: 


Как выбрать лучшую модель? 


Решение: лучшая — это та, что ошибается меньше всего 
Ограничения: 


e Анализируем четко определенное количество точек в прошлом 
e Все ожидаемые модели должны быть подсчитаны для всех точек 


Лучшая модель: 


Ошибка модели предсказаний 


WMAPE (иногда пишется wMAPE ) означает средневзвешенную абсолютную ошибку B 
процентах 


са - Fi 
Ме 1411 


Считаем ошибку дла всех моделеи на всех точках 


WMAPE = 


Выбираем модель с наименьшей ошибкой 


Лучшая модель: 


Запрос 


WITH 
sum(value) AS sum value, 
if(sum value = 0, 1е-10, sum value) AS sum value safe 
SELECT 
id, 
arraySort((x, y) -> у, [#тоае1 памез#], [#поде1 wmape expressionsft])Í] as best model 
FROM values and predictions 
GLOBAL INNER JOIN ( 
select id 
from values and predictions 


where 
ts = toDateTime('t$stime рег1оа#') - INTERVAL #гебепёіоп# DAY 
and bitAnd(4models пити, mask) = f£models пити 
) USING (id) 
WHERE 
ts BETWEEN (toDateTime('s4time рег1оа#') - INTERVAL 7 DAY) AND 'f£time рег1оа#' 
AND bitAnd(4*models пити, mask) = #поде1ѕ num 


GROUP BY id 
HAVING count() >= #min num forecastsit 


Лучшая модель: 


Запрос 


Для каждой модели заранее подготавливаем выражение подсчета ошибки и подставляем в 


model wmape expressions 


sum(abs(value - prediction #НАЗН#)) /sum value safe 


Лучшая модель: 


Запрос 


Лимитируем выборку по нужным моделям в первой точке 


GLOBAL INNER JOIN ( 
select id 
from values and predictions 


where 
time period = toDateTime('ttime регтод#!) - INTERVAL 7 DAY 
and bitAnd(4&models пап, mask) = #поае1$ питі 


) USING (id) 


Лучшая модель: 


Запрос 


Берем лучшую модель только для тех графиков, где количество точек достаточно 


HAVING count() >= {шїп num forecasts# 


Лучшая модель: 


Итого 


Мы имеем: 
е Много графиков с предсказаниями и доверительными интервалами 


е Знание о лучших моделях 


Сохраняем результаты 


Сохраняем результаты: 


Что у нас есть? 


е Данные подготовлены 
е Предсказания сделаны 
е Доверительные интервалы посчитаны 


е Лучшая модель определена 


Сохраняем результаты: 


Заполняем историю 


Забираем данные из values and predictions 
Забираем метаданные из dimensions 
Собираем дополнительную аналитику, если надо 


Вставляем все B history 


Что делать, когда 
много аномалий? 


Много аномалии: 


Получение аномалии 


select * from history 


where 
abs (predicted value - actual value) > threshold 
and ts = toDateTime('t$time periodi") 


and f$filter ехргезз1оп# 
order by actual value 


Много аномалии: 


Как сортировать? 


1. Просто 
Больше цифра — важнее аномалия 


2. Хитро 
Больше отклонение — важнее аномалия 


Много аномалии: 


Как фильтруем 


ЦЭР Ни“ N > 


По параметрам графика 
По значению графика 
По поведению графика 
По времени суток 


По продолжительности аномалии 


Много аномалии: 


Как фильтруем — ключ к победе 


Сложная логика фильтров 


Комбинация поведенческих фильтров с параметрическими 


Результат: возможность точно указать, какие аномалии нужно показать 


Итоги 


Итоги: 


Что мы узнали? 


Построить систему поиска аномалий можно 
Можно обрабатывать гигантские объемы данных 


Пользоваться решением могут все 


Спасибо! 
Вопросы? 


